微生物多样性专题 | 扩增子测序分析实战(二) 如何通过gi号获取物种注释?
文:向屿 | 编辑:湖心
本文系原创转载需授权
微生物多样性专题
扩增子测序分析实战(二)
如何通过gi号获取物种注释?
大家还记不记得我们上一期在讲(二)数据库整理之FunGene 的时候,抛出了一个问题,如何通过核酸序列gi号获得其对应的物种注释信息?本期,小编将为大家详细讲解这个问题的解决方法!
1、gi号和taxid的对应文件;
2、taxid和物种注释的对应文件;
由此即可得到gi号和物种的对应关系,实现步骤如下:
NCBI官网提供了该数据:
gi_taxid_nucl.dmp/gi_taxid_prot.dmp
下载地址:
ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/
ftp://ftp.ncbi.nih.gov/pub/taxonomy/gi_taxid_nucl.dmp.gz
# 核酸gi与taxid的对应关系,本期只需要这一个
ftp://ftp.ncbi.nih.gov/pub/taxonomy/gi_taxid_prot.dmp.gz
# 蛋白gi与taxid的对应关系,是附送下载的
NCBI提供taxid及其物种信息ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/taxdmp.zip,我们在之前的(二)数据库整理之 taxdmp 中已经做了初步介绍,已知整理起来相当复杂,所以小编这次就给大家介绍一个更容易操作的小工具:ncbitax2lin,可以实现taxid及其对应物种的下载及整理,在GitHub的网址 https://github.com/zyxue/ncbitax2lin,安装使用如下:
2.1、工作目录
cd /home/panrf/database/NCBI
2.2、下载
wget https://codeload.github.com/zyxue/ncbitax2lin/zip/master
2.3、解压并删除压缩包
unzip master && rm master
2.4、 cd ncbitax2lin-master
2.5、make # this will download the latest taxdump from NCBI, and run the scripts to regenerate all latest lineages fromit
如果显示如下报错:
不要惊慌,此时数据下载已经完成,当前文件夹下执行解压缩
tar zxvf./taxdump/taxdump.tar.gz
2.6、执行文件整理的操作:
python ncbitax2lin.py --nodes-file taxdump/nodes.dmp
--names-file taxdump/names.dmp -o lineage
【所以也可自行下载并解压taxdump.tar.gz 然后运行该步骤】
...
当前目录下生成 lineages.csv.gz,解压即可!
2.7、完成上述步骤,最终生成的 lineages.csv 文件,内容如下:
注:第一列为taxid,其后为各水平的注释信息~
* 4亿条 protgi2tax 记录以及 6亿条 nuclgi2tax 记录 *
基于上述两个步骤生成的文件,以taxid作为桥梁,将gi2taxid 和 taxid2taxonomy 结合提取gi号对应的物种注释即可,还是要在服务器上用编程语言实现,个人电脑带不动!
最终在output目录下会生nuclgi2tax/protgi2tax
文件,第一列为gi号,第二列为8个水平的物种注释:
对,就是它!赶快拿去整理FunGene数据库吧!
1、该数据将用于结合blast+结果为序列提供物种注释,由于数据量比较大,可以考虑将数据拆分,并行处理。
split -l 30000000 nuclgi2tax /home/pub/database/NCBI/taxonomy/nuclgi2tax.spl
# 每个拆分文件的行数可以根据要拆分为多少个文件去计算得到
split -l 20000000 protgi2tax /home/pub/database/NCBI/taxonomy/protgi2tax.spl # 拆分为protgi2tax.spl*
2、NCBI同时提供了accession2taxid 数据:
ftp://ftp.ncbi.nih.gov/pub/taxonomy/accession2taxid